阅读指南
上一节看到了预训练的代价、数据策略和三个局限。但为什么叫"预"训练?它后面还有什么步骤?本节将揭示完整的训练流程,以及一些有趣的行业故事。
回到开头的问题:为什么叫"预"训练?
因为它只是一个基础,后面还有很多工作:
完整的训练流程:
1 预训练 (Pre-training)
├─ 任务:预测下一个词
├─ 数据:3000亿词无标注文本
├─ 目标:学习通用语言能力
└─ 结果:通才,什么都懂一点,但不会做具体任务
2 监督微调 (Supervised Fine-Tuning, SFT)
├─ 任务:问答、对话、翻译等
├─ 数据:数万条人工标注的高质量问答对
├─ 目标:学会做任务
└─ 结果:会回答问题了,但可能还不够好
3 强化学习对齐 (RLHF)
├─ 任务:从人类反馈中学习
├─ 数据:人类对模型输出的评分
├─ 目标:让回答更符合人类偏好
└─ 结果:ChatGPT!安全、有帮助、对齐人类价值观
预训练是最重要也是最贵的基础,后面的步骤是精雕细琢。
谷歌一向以开源闻名于业界——Android操作系统、TensorFlow框架、Transformer架构都是开源的。那么在大模型时代,谷歌为什么不开源它的旗舰模型Gemini(双子座)呢?
其实谷歌用了现在大多数商业公司的策略:旗舰型模型闭源,轻量级模型开源。
Gemini(旗舰模型):
- 对标GPT-4的顶级模型
- 完全闭源
- 只能通过API调用
Gemma(轻量级模型):
- 基于Gemini技术,但参数量小得多(2B、7B)
- 开源
谷歌通过开源Gemma,树立"开源"的旗帜,让开发者社区能够使用和研究其模型。但真正最强大的Gemini,却保持闭源,保护了核心竞争力。
但其实现在开源的好模型也非常多,比如DeepSeek、Qwen系列、LLaMA。所以谷歌的Gemma并没有太大的影响力。
这与Android的策略很相似:谷歌开源Android操作系统,但Google服务(GMS)和核心优化却是闭源的。
所以,当你听到"谷歌开源了大模型"时,要明白:开源的是Gemma(小宝石),不是Gemini(大双子)。
GPT-3的训练数据中60%来自Common Crawl。但你知道这是什么吗?
Common Crawl是一个非营利组织,从2008年开始免费爬取并开放整个互联网的网页数据。它爬取的数据量是惊人的:
Note
数据来源:Common Crawl官方网站公开数据。
几乎所有大模型都用了Common Crawl的数据:
那么,Common Crawl为什么这么重要?
因为Common Crawl解决了一个根本问题:如果每个研究团队都自己爬取数据,不仅成本高昂,还可能违法(侵犯版权)。而Common Crawl提供了一个合法、标准化的数据集,让小团队也能训练大模型。
Common Crawl的总预算每年只有约200万美元,但它支撑了价值数千亿美元的AI产业。这可能是历史上投资回报率最高的公益项目之一。
预训练GPT-3需要1200万美元,那为什么还有那么多小公司能推出自己的对话模型?
答案是:他们不需要从头预训练,只需要在开源模型上做微调和对齐。
为什么可以这么做?
因为预训练已经完成了最难、最贵的部分——让模型学会了语言的通用能力:
语言知识已经学会
1750亿个参数里已经"记住"了3000亿个Token的语言规律。
成本已经付出
预训练花了1200万美元,这个成本你不用再付了。
只需微调
微调和对齐只需要数万条数据,成本只是预训练的1%。
这就是为什么Meta开源LLaMA、国内开源DeepSeek,阿里开源Qwen如此重要——降低了大模型的门槛。
计算机领域的程序员将代码开源的行为简直就是"人类之光"。很多程序员开源的目的很单纯,就是为了在GitHub上多获取几个Star,拉满自己的成就感,即使一分钱的收入也没有,也会持续更新代码。
这在其他很多行业是不多见的。如果没有开源,计算机技术的发展不会如此之快。
现在你已经知道:ChatGPT通过预训练学会了语言规律,能够预测下一个Token。
但这里有个问题:预训练后的模型,只会做一件事——文字接龙。
它不会:
那么,ChatGPT是如何从一个"文字接龙机器"变成一个"能干活的助手"的?
答案就在下一节:微调。
| 中文 | English | 音标 | 说明 |
|---|---|---|---|
| 微调 | Fine-Tuning | /faɪn ˈtjuːnɪŋ/ | 在预训练模型基础上使用少量标注数据做针对性参数调整 |
| 开源 | Open Source | /ˈoʊpən sɔːrs/ | 公开源代码和模型权重供社区使用、研究、修改的方式 |
| 闭源 | Closed Source | /kloʊzd sɔːrs/ | 不公开核心技术细节,仅通过API提供服务的商业模式 |
| Common Crawl | Common Crawl | /ˈkɒmən krɔːl/ | 非营利组织运营的免费互联网爬取数据集 |
| 两阶段训练范式 | Two-Stage Training Paradigm | /tuː steɪdʒ ˈtreɪnɪŋ ˈpærədaɪm/ | 先预训练后微调的模型开发流程 |